热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

发生|简写_hive缓慢变化维

篇首语:本文由编程笔记#小编为大家整理,主要介绍了hive缓慢变化维相关的知识,希望对你有一定的参考价值。维度建模的数据仓库中,有一个概念叫SlowlyC

篇首语:本文由编程笔记#小编为大家整理,主要介绍了hive缓慢变化维相关的知识,希望对你有一定的参考价值。


维度建模的数据仓库中,有一个概念叫Slowly Changing Dimensions,中文一般翻译成”缓慢变化维”,经常被简写为SCD。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生缓慢的变化。这种随时间发生变化的维度我们一般称之为缓慢变化维,并且把处理维度表的历史变化信息的问题称为处理缓慢变化维的问题,有时也简称为处理SCD的问题。


  • 针对的需求:
    • 表中的部分字段会被更新
    • 需要查看某一个时间点或者时间段的历史快照信息
    • 变化的比例和频率不是很大

举个例子

我们在业务表中,比如工单(workorder)这张表,由于从工单创建到工单归档这中间需要很多处理人进行处理,处理时长也相对较长,我们从关系型数据到hive或hbase中就可能需要用到缓慢变化维。

比如,我们按照一天的间隔对数据进行抽取。第一天,mysql数据表如下:


idstatuscreateTimeupdateTime
112022-11-052022-11-05
222022-11-052022-11-05
312022-11-052022-11-05
422022-11-052022-11-05

到了第二天,MySQL中数据表如下:


idstatuscreateTimeupdateTime
112022-11-052022-11-05
232022-11-052022-11-06
312022-11-052022-11-05
422022-11-052022-11-05
522022-11-062022-11-06
622022-11-062022-11-06

很显然,第二天对id为2的数据进行了更新,且新增了id为5和6的两条新的数据。
对于在hive中,我们对于抽取过来的数据,需要做进一步的处理:


  • 针对当日抽取得到的数据进行分区(ods层)
  • 再建立dw层数据,即从ods层到dw层的数据处理,我们赋予两个新的字段:startTime和endTime
    • startTime,就是当日抽取的时间
    • endTime,就是我们数据的结束时间,对于新的数据,我们用9999-12-31表示,对于旧的数据,我们可以将其为抽取那天

实现过程


1、模拟数据



建立工单表,这里只做demo演示,所以只抽取更新的字段


在mysql中插入数据,表示为第一天以来的全部数据

create table if not exists workorder(
id varchar(50),
status varchar(50),
createtime varchar(50),
updatetime varchar(50)
) ;
insert into workorder(id , status , createtime, updatetime) values
('1', '1', '2022-11-05', '2022-11-05'),
('2', '2', '2022-11-05', '2022-11-05'),
('3', '1', '2022-11-05', '2022-11-05'),
('4', '2', '2022-11-05', '2022-11-05');

2、导入第一天的数据

在hive中,建立ods层的表,并分区,导入第一天数据

-- 创建ods层表
create table if not exists ods_workorder(
id string,
status string,
createtime string,
updatetime string
)
partitioned by (dt string)
row format delimited fields terminated by '\\t';
-- 新增表分区
alter table ods_workorder add partition (dt='2022-11-05');
-- 创建dw层表
create table if not exists dw_workorder(
id string,
status string,
createtime string,
updatetime string,
starttime string,
endtime string
)
row format delimited fields terminated by '\\t';

使用sqoop导入第一天数据到hive的ods层

sqoop import \\
--connect jdbc:mysql://localhost:3306/test \\
--username root \\
--password 123456 \\
--table workorder \\
--m 1 \\
--delete-target-dir \\
--fields-terminated-by '\\t' \\
--target-dir /user/hive/warehouse/ods_workorder/dt=2022-11-05

将第一天数据从ods导入dw层,由于是第一天数据,endtime默认是9999-12-31

insert overwrite table dw_workorder
select
id string,
status string,
createtime string,
updatetime string,
updatetime as starttime,
'9999-12-31' as endtime
from
ods_workorder
where
dt = '2022-11-05';

3、导入第二天数据

第二天,mysql中新增两条并更新了一条

UPDATE workorder SET status = '3', modifytime = '2022-11-06' WHERE id = '3';
INSERT INTO workorder(id, status, createtime, updatetime) VALUES
('5', '2', '2022-11-06', '2022-11-06'),
('6', '2', '2022-11-06', '2022-11-06');

使用sqoop进行增量导入

sqoop import \\
--connect jdbc:mysql://localhost:3306/test \\
--username root \\
--password 123456 \\
--target-dir /user/hive/warehouse/ods_workorder/dt=2022-11-06 \\
--query "select * from workorder where updatetime = '2022-11-06' and \\$CONDITIONS" \\
--delete-target-dir \\
--fields-terminated-by '\\t' \\
--m 1

这时候,在dw层中,我们需要新增一张表,用于计算endtime,同时,它存储在dw层中对于dw_workorder的“前面的数据”,在hive中

create temporary table if not exists dw_tmp_workorder(
id string,
status string,
createtime string,
updatetime string,
starttime string,
endtime string
)
row format delimited fields terminated by '\\t';

关键代码处理:将更新的旧数据设置endtime为2022-11-05,表示生效时间为当天,新的数据的endtime字段更新为9999-12-31,标识为最新的数据

insert overwrite table dw_tmp_workorder
select
t1.id,
t1.status,
t1.createtime,
t1.updatetime,
t1.starttime,
case when (t2.id is not null and t1.endtime = '9999-12-31' )
then '2022-11-05'
else t1.endtime
end as endtime
from
dw_workorder t1
left join
(select * from ods_workorder where dt='2022-11-06') t2
on t1.id = t2.id
union all
select
id,
status,
createtime,
updatetime,
updatetime as starttime,
'9999-12-31' as endtime
from
ods_workorder where dt='2022-11-06';

最后我们将tmp表中的数据插入到dw_workorder中

insert overwrite table dw_workorder
select * from dw_tmp_workorder;

至此,我们的数据就处理完成了

查询旧数据:

select * from dw_workorder where starttime <&#61; &#39;2022-11-05&#39; and endtime >&#61; &#39;2022-11-05&#39; ;

查询最新数据&#xff1a;

select * from dw_workorder where endtime &#61; &#39;9999-12-31&#39; ;

推荐阅读
  • 本文探讨了如何使用Scrapy框架构建高效的数据采集系统,以及如何通过异步处理技术提升数据存储的效率。同时,文章还介绍了针对不同网站采用的不同采集策略。 ... [详细]
  • 本文探讨了Android系统中联系人数据库的设计,特别是AbstractContactsProvider类的作用与实现。文章提供了对源代码的详细分析,并解释了该类如何支持跨数据库操作及事务处理。源代码可从官方Android网站下载。 ... [详细]
  • 本文详细介绍了在MyBatis框架中如何通过#和$两种方式来传递SQL查询参数。使用#方式可以提高执行效率,而使用$则有助于在复杂SQL语句中更好地查看日志。此外,文章还探讨了不同场景下的参数传递方法,包括实体对象、基本数据类型以及混合参数的使用。 ... [详细]
  • java datarow_DataSet  DataTable DataRow 深入浅出
    本篇文章适合有一定的基础的人去查看,最好学习过一定net编程基础在来查看此文章。1.概念DataSet是ADO.NET的中心概念。可以把DataSet当成内存中的数据 ... [详细]
  • 本文详细介绍了如何使用Linux下的mysqlshow命令来查询MySQL数据库的相关信息,包括数据库、表以及字段的详情。通过本文的学习,读者可以掌握mysqlshow命令的基本语法及其常用选项。 ... [详细]
  • 本文深入探讨了MySQL中的高级特性,包括索引机制、锁的使用及管理、以及如何利用慢查询日志优化性能。适合有一定MySQL基础的读者进一步提升技能。 ... [详细]
  • Hadoop MapReduce 实战案例:手机流量使用统计分析
    本文通过一个具体的Hadoop MapReduce案例,详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况,包括上行和下行流量的计算以及总流量的汇总。 ... [详细]
  • Java连接MySQL数据库的方法及测试示例
    本文详细介绍了如何安装MySQL数据库,并通过Java编程语言实现与MySQL数据库的连接,包括环境搭建、数据库创建以及简单的查询操作。 ... [详细]
  • C/C++ 应用程序的安装与卸载解决方案
    本文介绍了如何使用Inno Setup来创建C/C++应用程序的安装程序,包括自动检测并安装所需的运行库,确保应用能够顺利安装和卸载。 ... [详细]
  • 本文详细介绍如何在SSM(Spring + Spring MVC + MyBatis)框架中实现分页功能。包括分页的基本概念、数据准备、前端分页栏的设计与实现、后端分页逻辑的编写以及最终的测试步骤。 ... [详细]
  • binlog2sql,你该知道的数据恢复工具
    binlog2sql,你该知道的数据恢复工具 ... [详细]
  • 深入解析 C++ 中的 String 和 Vector
    本文详细介绍了 C++ 编程语言中 String 和 Vector 的使用方法及特性,旨在帮助开发者更好地理解和应用这两个重要的容器。 ... [详细]
  • 本文详细解析了MySQL中常见的几种错误,并提供了具体的解决方法,帮助开发者快速定位和解决问题。 ... [详细]
  • 本文探讨了如何在PHP与MySQL环境中实现高效的分页查询,包括基本的分页实现、性能优化技巧以及高级的分页策略。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
author-avatar
涉世未深的phper
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有